恢复面部和文档图像的检测是一项重要的法医任务。经过深入的学习,面部抗散热器(FAS)和重新接收的文件检测的表现得到了显着改善。但是,对于法医提示较弱的样品,表演尚不令人满意。可以量化法医提示的数量,以允许可靠的法医结果。在这项工作中,我们提出了一个放大性评估网络,以量化质疑样品的允许性。在实际重新接收检测过程之前,将拒绝低固定性样品,以提高重新接收检测系统的效率。我们首先提取与图像质量评估和法医任务相关的判定性特征。通过利用图像质量和法医功能的法医应用的域知识,我们定义了特定于任务的规定类别和特征空间中的初始化位置。根据提取的功能和定义的中心,我们使用跨凝结损失训练提出的法医评估网络(FANET),并使用基于动量的更新方法更新中心。我们将受过训练的粉丝与实际重新接收检测方案相结合,并在抗spofing和重新接收的文档检测任务中。实验结果表明,对于基于CNN的FAS方案而言,狂热者通过拒绝最低30%放大性得分的样本,将EERS从Rose to IDIAP方案下的ERS降低到19.23%。在被拒绝的样品中,FAS方案的性能很差,EER高达56.48%。在FAS中的最新方法和重新接收的文档检测任务中,已经观察到了拒绝低差异性样品的类似性能。据我们所知,这是评估重新捕获文档图像并提高系统效率的第一份工作。
translated by 谷歌翻译
面对抗泡沫(FAS)和伪造探测在保护面部生物识别系统免受演示攻击(PAS)和恶性数字操作(例如,Deepfakes)中的生物识别系统中起着至关重要的作用。尽管大规模数据和强大的深层模型有希望的表现,但现有方法的概括问题仍然是一个空旷的问题。最近的大多数方法都集中在1)单峰视觉外观或生理学(即远程光摄影学(RPPG))线索;和2)用于FAS或面部伪造检测的分离特征表示。一方面,单峰外观和RPPG功能分别容易受到高保真的面孔3D面膜和视频重播攻击的影响,从而激发了我们设计可靠的多模式融合机制,用于广义面部攻击检​​测。另一方面,FAS和面部伪造探测任务(例如,定期的RPPG节奏和BONAFIDE的香草外观)都有丰富的共同特征,提供了可靠的证据来设计联合FAS和面部伪造探测系统,以多任务学习方式。在本文中,我们使用视觉外观和生理RPPG提示建立了第一个关节面欺骗和伪造的检测基准。为了增强RPPG的周期性歧视,我们使用两种面部时空时代的RPPG信号图及其连续小波转换为输入的两分支生理网络。为了减轻模态偏差并提高融合功效,我们在多模式融合之前对外观和RPPG特征进行了加权批次和层归一化。我们发现,可以通过对这两个任务的联合培训来改善单峰(外观或RPPG)和多模式(外观+RPPG)模型的概括能力。我们希望这种新的基准将促进FAS和DeepFake检测社区的未来研究。
translated by 谷歌翻译
人重新识别(人REID)模型的现有评估指标着重于系统范围的性能。但是,我们的研究揭示了由于摄像机之间的数据分布不平的弱点和将REID系统暴露于剥削的不同摄像头性能。在这项工作中,我们提出了长期以来的摄像机性能不平衡问题,并从38个摄像机中收集了现实世界中的隐私意识数据集,以帮助研究不平衡问题。我们提出了新的指标来量化摄像机性能不平衡,并进一步提出了对抗性成对的反向关注(APRA)模块,以指导模型学习摄像机不变特征,并具有新颖的成对注意反转机制。
translated by 谷歌翻译
在低灯条件下捕获的图像遭受低可视性和各种成像伪影,例如真实噪音。现有的监督启示算法需要大量的像素对齐的训练图像对,这很难在实践中准备。虽然弱监督或无人监督的方法可以缓解这些挑战,但不使用配对的训练图像,由于缺乏相应的监督,一些现实世界的文物不可避免地被错误地放大。在本文中,而不是使用完美的对齐图像进行培训,我们创造性地使用未对准的现实世界图像作为指导,这很容易收集。具体地,我们提出了一个交叉图像解剖线程(CIDN),以分别提取来自低/常光图像的交叉图像亮度和图像特定内容特征。基于此,CIDN可以同时校正特征域中的亮度和抑制图像伪像,其在很大程度上将鲁棒性增加到像素偏移。此外,我们收集了一个新的低光图像增强数据集,包括具有现实世界腐败的未对准培训图像。实验结果表明,我们的模型在新建议的数据集和其他流行的低光数据集中实现了最先进的表演。
translated by 谷歌翻译
基于深度神经网络(DNN)的智能信息(IOT)系统已被广泛部署在现实世界中。然而,发现DNNS易受对抗性示例的影响,这提高了人们对智能物联网系统的可靠性和安全性的担忧。测试和评估IOT系统的稳健性成为必要和必要。最近已经提出了各种攻击和策略,但效率问题仍未纠正。现有方法是计算地广泛或耗时,这在实践中不适用。在本文中,我们提出了一种称为攻击启发GaN(AI-GaN)的新框架,在有条件地产生对抗性实例。曾经接受过培训,可以有效地给予对抗扰动的输入图像和目标类。我们在白盒设置的不同数据集中应用AI-GaN,黑匣子设置和由最先进的防御保护的目标模型。通过广泛的实验,AI-GaN实现了高攻击成功率,优于现有方法,并显着降低了生成时间。此外,首次,AI-GaN成功地缩放到复杂的数据集。 Cifar-100和Imagenet,所有课程中的成功率约为90美元。
translated by 谷歌翻译
生成模型的面部匿名化已经变得越来越普遍,因为它们通过生成虚拟面部图像来消毒私人信息,从而确保隐私和图像实用程序。在删除或保护原始身份后,通常无法识别此类虚拟面部图像。在本文中,我们将生成可识别的虚拟面部图像的问题形式化和解决。我们的虚拟脸部图像在视觉上与原始图像不同,以保护隐私保护。此外,它们具有新的虚拟身份,可直接用于面部识别。我们建议可识别的虚拟面部发电机(IVFG)生成虚拟面部图像。 IVFG根据用户特定的键将原始面部图像的潜在矢量投射到虚拟图像中,该键基于该图像生成虚拟面部图像。为了使虚拟面部图像可识别,我们提出了一个多任务学习目标以及一个三联生的培训策略,以学习IVFG。我们使用不同面部图像数据集上的不同面部识别器评估虚拟面部图像的性能,所有这些都证明了IVFG在生成可识别的虚拟面部图像中的有效性。
translated by 谷歌翻译
最新的深层神经网络容易受到共同损坏的影响(例如,由天气变化,系统错误和处理引起的输入数据降解,扭曲和干扰)。尽管在分析和改善模型在图像理解中的鲁棒性方面取得了很多进展,但视频理解中的鲁棒性在很大程度上没有探索。在本文中,我们建立了腐败的鲁棒性基准,迷你动力学-C和Mini SSV2-C,该基准认为图像中的空间腐败以外的时间腐败。我们首次尝试对建立的基于CNN和基于变压器的时空模型的腐败鲁棒性进行详尽的研究。该研究提供了有关强大模型设计和培训的一些指导:基于变压器的模型比基于CNN的模型更好地腐败鲁棒性。时空模型的概括能力意味着对时间腐败的鲁棒性;模型腐败鲁棒性(尤其是时间领域的鲁棒性)通过计算成本和模型容量增强,这可能与提高模型计算效率的当前趋势相矛盾。此外,我们发现与图像相关的任务(例如,具有噪声的训练模型)的鲁棒性干预可能对时空模型不起作用。
translated by 谷歌翻译
We derive a set of causal deep neural networks whose architectures are a consequence of tensor (multilinear) factor analysis. Forward causal questions are addressed with a neural network architecture composed of causal capsules and a tensor transformer. The former estimate a set of latent variables that represent the causal factors, and the latter governs their interaction. Causal capsules and tensor transformers may be implemented using shallow autoencoders, but for a scalable architecture we employ block algebra and derive a deep neural network composed of a hierarchy of autoencoders. An interleaved kernel hierarchy preprocesses the data resulting in a hierarchy of kernel tensor factor models. Inverse causal questions are addressed with a neural network that implements multilinear projection and estimates the causes of effects. As an alternative to aggressive bottleneck dimension reduction or regularized regression that may camouflage an inherently underdetermined inverse problem, we prescribe modeling different aspects of the mechanism of data formation with piecewise tensor models whose multilinear projections are well-defined and produce multiple candidate solutions. Our forward and inverse neural network architectures are suitable for asynchronous parallel computation.
translated by 谷歌翻译
The existing methods for video anomaly detection mostly utilize videos containing identifiable facial and appearance-based features. The use of videos with identifiable faces raises privacy concerns, especially when used in a hospital or community-based setting. Appearance-based features can also be sensitive to pixel-based noise, straining the anomaly detection methods to model the changes in the background and making it difficult to focus on the actions of humans in the foreground. Structural information in the form of skeletons describing the human motion in the videos is privacy-protecting and can overcome some of the problems posed by appearance-based features. In this paper, we present a survey of privacy-protecting deep learning anomaly detection methods using skeletons extracted from videos. We present a novel taxonomy of algorithms based on the various learning approaches. We conclude that skeleton-based approaches for anomaly detection can be a plausible privacy-protecting alternative for video anomaly detection. Lastly, we identify major open research questions and provide guidelines to address them.
translated by 谷歌翻译
Several self-supervised representation learning methods have been proposed for reinforcement learning (RL) with rich observations. For real-world applications of RL, recovering underlying latent states is crucial, particularly when sensory inputs contain irrelevant and exogenous information. In this work, we study how information bottlenecks can be used to construct latent states efficiently in the presence of task-irrelevant information. We propose architectures that utilize variational and discrete information bottlenecks, coined as RepDIB, to learn structured factorized representations. Exploiting the expressiveness bought by factorized representations, we introduce a simple, yet effective, bottleneck that can be integrated with any existing self-supervised objective for RL. We demonstrate this across several online and offline RL benchmarks, along with a real robot arm task, where we find that compressed representations with RepDIB can lead to strong performance improvements, as the learned bottlenecks help predict only the relevant state while ignoring irrelevant information.
translated by 谷歌翻译